Comparabilité de corpus et fouille terminologique multilingue

نویسندگان

Emmanuel Morin

Béatrice Daille

چکیده

RÉSUMÉ. Les principaux travaux en fouille textuelle privilégient communément la taille du corpus sur sa qualité. Ainsi dans le cadre de l’alignement lexical à partir de corpus comparables, les meilleurs résultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de spécialité, et pour de nombreuses paires de langues, il n’est pas possible de disposer de corpus textuels aussi volumineux. Dans le cadre de ce travail, nous soutenons l’hypothèse que la qualité des données textuelles peut non seulement suppléer à leur quantité mais garantit aussi celle des ressources lexicales extraites. En particulier, nous montrons l’intérêt de prendre en compte le type du discours lors de la constitution du corpus comparable pour obtenir des listes terminologiques de qualité.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Fouille de textes pour orienter la construction d'une ressource terminologique

Résumé. La finalité de ce papier est d'analyser l'apport de techniques de fouille de données textuelles à une méthodologie de construction d'ontologie à partir de textes. Le domaine d’application de cette expérimentation est celui de l’accidentologie routière. Dans ce contexte, les résultats des techniques de fouille de données textuelles sont utilisés pour orienter la construction d’une ressou...

متن کامل

Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé

RÉSUMÉ. Notre objectif est d’automatiser la construction de corpus comparables spécialisés à partir du Web. La comparabilité se base sur trois niveaux : le domaine, le thème et le type de discours. Le domaine et le thème peuvent être filtrés grâce aux mots-clés utilisés lors de la recherche. Nous présentons dans cet article la reconnaissance automatique du type de discours dans des documents sp...

متن کامل

Lexicons from Comparable Corpora for Multilingual Information Retrieval (Lexiques de corpus comparables et recherche d'information multilingue) [in French]

متن کامل

Hiérarchisation des règles d'association en fouille de textes

Résumé. L’extraction de règles d’association est souvent exploitée comme méthode de fouille de données. Cependant, une des limites de cette approche vient du très grand nombre de règles extraites et de la difficulté pour l’analyste à appréhender la totalité de ces règles. Nous proposons donc de pallier ce problème en structurant l’ensemble des règles d’association en hiérarchies. La structurati...

متن کامل

Some variations on quantitative comparability measures and evaluations on synthetic French-English comparable corpora (Quelques variations sur les mesures de comparabilité quantitatives et évaluations sur des corpus comparables Français-Anglais synthétiques) [in French]

15 c ï¿¿ ATALA

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره 47 شماره

صفحات -

تاریخ انتشار 2006

Comparabilité de corpus et fouille terminologique multilingue

نویسندگان

چکیده

منابع مشابه

Fouille de textes pour orienter la construction d'une ressource terminologique

Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé

Lexicons from Comparable Corpora for Multilingual Information Retrieval (Lexiques de corpus comparables et recherche d'information multilingue) [in French]

Hiérarchisation des règles d'association en fouille de textes

Some variations on quantitative comparability measures and evaluations on synthetic French-English comparable corpora (Quelques variations sur les mesures de comparabilité quantitatives et évaluations sur des corpus comparables Français-Anglais synthétiques) [in French]

عنوان ژورنال:

اشتراک گذاری